Sparsely gated Mixture of Experts (MoE) models have been shown to be a compute-efficient method to scale model capacity for multilingual machine translation. However, for low-resource tasks, MoE models severely over-fit. We show effective regularization strategies, namely dropout techniques for MoE layers in EOM and FOM, Conditional MoE Routing and Curriculum Learning methods that prevent over-fitting and improve the performance of MoE models on low-resource tasks without adversely affecting high-resource tasks. On a massively multilingual machine translation benchmark, our strategies result in about +1 chrF++ improvement in very low resource language pairs. We perform an extensive analysis of the learned MoE routing to better understand the impact of our regularization methods and how we can improve them.
translated by 谷歌翻译
Multilingual machine translation models can benefit from synergy between different language pairs, but also suffer from interference. While there is a growing number of sophisticated methods that aim to eliminate interference, our understanding of interference as a phenomenon is still limited. This work identifies the main factors that contribute to interference in multilingual machine translation. Through systematic experimentation, we find that interference (or synergy) are primarily determined by model size, data size, and the proportion of each language pair within the total dataset. We observe that substantial interference occurs mainly when the model is very small with respect to the available training data, and that using standard transformer configurations with less than one billion parameters largely alleviates interference and promotes synergy. Moreover, we show that tuning the sampling temperature to control the proportion of each language pair in the data is key to balancing the amount of interference between low and high resource language pairs effectively, and can lead to superior performance overall.
translated by 谷歌翻译
在全球范围内消除语言障碍的目标的驱动下,机器翻译已巩固自己是当今人工智能研究的关键重点。但是,这样的努力围绕着一小部分语言结合在一起,留下了绝大多数低资源的语言。在确保安全,高质量的结果的同时,在牢记道德考虑的同时,打破200个语言障碍需要什么?没有留下的语言,我们首先通过与母语人士的探索性访谈来解决对低资源语言翻译支持的必要性来应对这一挑战。然后,我们创建了旨在缩小低资源和高资源语言之间的性能差距的数据集和模型。更具体地说,我们开发了一种有条件的计算模型,基于专家的稀疏混合物,该模型经过针对针对低资源语言量身定制的新颖有效的数据挖掘技术培训的。我们提出了多次建筑和培训改进,以抵消数千个任务的培训。至关重要的是,我们使用人类翻译的基准,Flores-200评估了40,000多种不同的翻译方向的性能,并将人类评估与新型毒性基准相结合,涵盖Flores-200的所有语言,以评估翻译安全性。我们的模型相对于先前的最新技术,实现了44%BLEU的改善,为实现通用翻译系统奠定了重要的基础。最后,我们开源此工作中描述的所有贡献,可在https://github.com/facebookresearch/fairseq/tree/nllb上访问。
translated by 谷歌翻译
在存在潜在变量的情况下,从观察数据中估算因果关系的效果有时会导致虚假关系,这可能被错误地认为是因果关系。这是许多领域的重要问题,例如金融和气候科学。我们提出了序性因果效应变异自动编码器(SCEVAE),这是一种在隐藏混杂下的时间序列因果关系分析的新方法。它基于CEVAE框架和复发性神经网络。通过基于Pearl的Do-Calculus使用直接因果标准来计算因果链接的混杂变量强度。我们通过将其应用于具有线性和非线性因果链接的合成数据集,以显示SCEVAE的功效。此外,我们将方法应用于真实的气溶胶气候观察数据。我们将我们的方法与在合成数据上有或没有替代混杂因素的时间序列变形方法进行比较。我们证明我们的方法通过将两种方法与地面真理进行比较来表现更好。对于真实数据,我们使用因果链接的专家知识,并显示正确的代理变量的使用如何帮助数据重建。
translated by 谷歌翻译
以图形为中心的人工智能(Graph AI)在建模自然界中普遍存在的相互作用系统(从生物学的动态系统到粒子物理学)方面取得了显着成功。数据的异质性的增加,需要对可以结合多种电感偏见的图形神经体系结构。但是,将来自各种来源的数据组合起来是具有挑战性的,因为适当的归纳偏差可能会因数据模式而异。多模式学习方法融合了多个数据模式,同时利用跨模式依赖性来应对这一挑战。在这里,我们调查了以图形为中心的AI的140项研究,并意识到,使用图越来越多地将各种数据类型汇集在一起​​,并将其馈入复杂的多模型模型。这些模型分为图像,语言和知识接地的多模式学习。我们提出了基于此分类的多模式图学习的算法蓝图。该蓝图是通过选择适当的四个不同组件来处理多模式数据的最先进架构的方法。这项工作可以为标准化精致的多模式体系结构的设计铺平道路,以解决高度复杂的现实世界问题。
translated by 谷歌翻译
因果分析对于了解系统的潜在机制至关重要。我们建议通过对预测因子的干预措施来利用模型不变性,以推断非线性多元时间序列中的因果关系。我们使用DeePAR在时间序列中对非线性相互作用进行建模,然后使用基于仿基的干预措施将模型暴露于不同的环境中,以测试模型不变性。仿冒样品是成对交换的,分配的,并且在不知道响应的情况下生成了统计上的无效变量。我们测试模型不变性,我们表明在非毒物预测因子的干预措施后,响应残差的分布不会显着变化。我们评估我们的方法和合成生成的时间序列。总体而言,我们的方法的表现优于其他广泛使用的因果关系方法,即Var Granger因果关系,Varlingam和PCMCI+。
translated by 谷歌翻译